﻿ Cursurile 5-6 Introducere în prelucrarea limbajului natural Domeniul • Lingvisca computaţională (LC) – osatura teorecă – computaonal linguiscs • Prelucrarea limbajului natural – zona aplicavă – natural language processing – tehnologia limbajului natural, natural language technology – tehnologia limbajului uman, human language technology 2 Tehnologia limbajului natural • Limbajul vorbit • Limbajul scris • Limbajul în corelaţie cu alte modalităţi de expresie (mulmodalitate) 3 Tehnologiile limbajului vorbit • Interpretarea vocii – reprezentarea semnalelor vocale – recunoaşterea vorbirii – analiza prozodiei – recunoaşterea vorbitorului • Sinteza vocală 4 Prelucrarea semnalului sonor Prin bunăvoinţa Acad H N Teodorescu 5 Tehnologiile limbajului scris • Tehnologii primare – Analiza imaginii documentelor – Recunoaşterea caracterelor de par – Recunoaşterea caracterelor de mână • Opcal Character Recognion (OCR) 6 Ms 45 BAR Cluj-Napoca, second half of 17th century Diﬀerent types of wring in the revised copy of Nicolae Milescu’s translaon of Septuaginta, p 412-413 7 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sub-sintacce • unităţile lexicale • graniţele de frază • granițele de propoziții • partea de vorbire şi marca morfologică • lema • numele de entăţi • grupurile (nominale, verbale, prepoziţionale etc ) şi atracţiile lexicale (colocaţii) 8 Fraze Comisia juridică a Camerei Deputaţilor a votat luni împotriva începerii urmăririi penale a ministrului demisionar al Fondurilor Europene, Rovana Plumb, după ce aceasta a fost audiată, alături de avocat, aproximav o oră de către deputaţii juriş | Rovana Plumb s-a declarat, din nou, la ieşirea de la audierile din comisia juridică, nevinovată de acuzaţiile aduse de procurorii ancorupţie | 9 Propoziții Pe 22 septembrie, DNA a anunţat că | vicepremierul Sevil Shhaideh este suspectă de | săvârşirea infracţiunii de abuz în serviciu | când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, | prin acţiunea concertată a unor persoane cu funcţii publice, | părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, | pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private | 10 Unități lexicale Pe 22 septembrie , DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP , într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 11 Entăți cu nume persoană Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 12 Entăți cu nume dată Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private reper temporal Entăți cu nume instuție Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 14 ocații Entăți cu nume lgeograﬁce Pe 22 septembrie, DNA a anunţat că vicepremierul Sevil Shhaideh este suspectă de săvârşirea infracţiunii de abuz în serviciu când era secretar de stat la MDRAP, într-un dosar conform căruia, în 2013, prin acţiunea concertată a unor persoane cu funcţii publice, părţi din Insula Belina şi Braţul Pavel au trecut ilegal din proprietatea statului în proprietatea judeţului Teleorman şi în administrarea CJ Teleorman, pentru ca, doar la câteva zile, să ﬁe închiriate tot ilegal unei ﬁrme private 15 Lema și partea de vorbire Solicitat – solicita – vb să – să – conj comenteze – comenta – vb un – un – art nehot editorial – editorial – sb recent – recent – adj 16 Adnotarea morfologică • English 0 1 He he subj:>2 @SUBJ PRON 2 did do v-ch:>4 @+FAUXV V 3 not not neg:>2 @ADVL NEG-PART 4 know know main:>0 @-FMAINV V 5 her she subj:>6 @OBJ PRON 6 name name obj:>4 @-FMAINV V • Romanian Nu şa cum o cheamă 17 Grupuri nominale Solicitat să comenteze [un editorial recent al lui [Dinu Patriciu]], în [care] [acesta] preciza că nu crede în [social-liberalism] şi să aprecieze dacă, asel, a dat [o lovitură de [imagine]] [USL], [Antonescu] a spus că nu şe dacă [Patriciu] s-a referit la [USL] 18 Adnotare la grupuri nominale He did not know her name 19 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – prelucrări sintacce • formalisme gramacale • parsarea è structura sintaccă a frazei 20 Ambiguităţi sintacce Maria priveşte calul cu ochelari S S VP NP VP NP NP NP PP PP NP NP priveşte Maria calul cu ochelari priveşte Maria calul cu ochelari 21 Instrumente de bază în PLN • Tokenizer: determină granițele unităților lexicale – intrare: text (șir de caractere) – ieșire: cuvânt – cum: prin expresii regulate 22 22 Instrumente de bază în PLN • POS-Tagger: echetare la parte de vorbire (dezambiguizare morfosintaccă) – intrare: cuvânt – ieșire: cuvânt – cum: exploatând frecvențele de apariție a anumitor secvențe de părți de vorbire => opmizare globală a secvențelor de echete The saw made noise DET V N N N V 23 Instrumente de bază în PLN • Lemazator: determină forma de bază a cuvintelor – intrare: word – ieșire: word – cum: pe baza unui dicționar de leme și exploatând frecvențe de apariție a secvențelor de leme => opmizare globală The saw made noise the saw made noise see make 24 Instrumente de bază în PLN • NP-Chunker: detectează grupuri nominale – intrare: secvențe de elemente – ieșire: – cum: aplicând expresii regulate 25 Instrumente de bază în PLN • NER (name enty recogniser): recunoaște și clasiﬁcă nume de entăți – intrare: text – ieșire: – cum: pe bază de expresii regulate și liste foarte mari de nume de entăți specializate pe limbi (gazeteers) 26 Tehnologiile limbajului scris • Analiza şi înţelegerea limbajului – Prelucrări semance şi de discurs • dezambiguizare semancă è sensurile cuvintelor • determinarea rolurilor semance ale verbelor • structura retorică a discursului şi dialogului • rezoluţia anaforelor • rezumarea textelor 27 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 28 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 29 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 30 Lanțuri coreferențiale Winston was just taking his place in one of the middle rows when two people whom he knew by sight, but had never spoken to, came unexpectedly into the room One of them was a girl whom he often passed in the corridors He did not know her name, but he knew that she worked in the Fiction Department 31 Cuvintele îşi precizează sensul în context • Ion se prinse în horă cu o fată cu cosiţe lungi • Când fată iapa ta? • Mă mai dau o dată pe pâra roşie • I-am dat una peste mână • Maria a dat cartea înapoi • M-am scos… • Mi-am scos măseaua de minte 32 Pre-processing TEXT Tokeniser SENT-SPLITTER TOK SENT POS-tagger + Lemmaser TOK(POS,LEM) 33 NP-chunking, NER TOK(POS,LEM) NP-chunker TOK + NP NER me NER org NER person TOK+NPTOK+NP +NE(PER) TOK+NP+TIME +NE(ORG) merge TOK+NP+NE 34 Coreference, syntacc parsing SENT TOK+NP+NE TOK(POS,LEM) RARE merge TOK + NP+NE +COREF TOK+SENT FDG-parser TOK+SENT +SYNT merge TOK+NP+NE+COREF +SENT+SYNT 35 Events TEXT manual annotaon EVENT simpliﬁcaon TOK+NP+NE+COREF +SENT+SYNT EVENT-ﬁnder TOK+NP+NE+COREF +SENT+SYNT+EVENT 36 Kinship and Space TEXT manual annotaon manual annotaon KINSHIP SPACE TOK+NP+NE+COREFsimpliﬁcaon +SENT+SYNT simpliﬁcaon KINSHIP-ﬁnder SPACE-ﬁnder TOK+NP+NE+COREFTOK+NP+NE+COREF +SENT+SYNT+KINSHIP +SENT+SYNT+SPACE 37 Relații de rudenie: exemplu - Las că cu ne mă răfuiesc după, îi scăpă printre dinți omului ei Donca, nevasta călugărului zbanghiu Zuicu, care-I adusese la el acasă pe Ion și pe președinte Apoziție: Per-X, Rel (atrib) Per-Ygen, => marriage(X:person[sex:?], Y:person[sex:?]) marriage(Donca:person[sex:f], Zuicu:person[sex:m]) 38 Relații de rudenie: exemplu - Vreme de patruzeci de ani viața Ellei Rubinstein1 fusese ca o apă stătătoare… Soțul ei1, David, era un denst de succes… Apoziție: Rel Per-Xpr, Per-Y, => on,gen marriage(antecedent(X):person[sex:?], Y:person[sex:?]) marriage(Ella Rubistein:person[sex:f], David:person[sex:m]) 39 Relații spațiale: exemplu La cinci verste de iurtele Aremziansk, în mijlocul râului Irtâş, se aﬂă ostrovul Kuntai Satul lui Filatov se aﬂă pe malul stâng la două verste de ostrov 40 Cum se calibrează un modul? Să presupunem că vrem să construim un modul care să realizeze un anumit obiecv Atunci, de fapt, va trebui să fabricăm 3 module: § Modulul de antrenare (TM) § Modulul propriu-zis (X) § Modulul de evaluare (EM) 41 Modulul de antrenare (TM) • TM extrage dintr-un corpus de antrenare un model care va ﬁ apoi folosit de molulul X preferencesTraining pref Training Module Training model Corpus 42 Modulul X • X aplică un algoritm asupra unei intrări pentru a o transforma în conformitate cu modelul învățat preferencesX pref model The module X output xml input xml 43 Modulul de evaluare (EM) • EM evaluează (compară) un ﬁșier Test față de un ﬁșier considerat corect (de aur) Gold preferencesEvaluaon pref Test output xml Evaluaon Module evalLog gold xml 44 Măsuri în evaluare • Precision = #itemi în comun în Test & Gold/#itemi în Test • Recall = #itemi în comun în Test & Gold/#itemi în Gold • F-measure = 2 * P * R / (P + R) 45 Arhitectura generală preferencesTraining pref preferencesX pref TM model X input xml Training corpus output xml ld xml evalLog EM go preferencesEvaluaon pref 46 Sistem de calibrare TM conﬁguraon cfg preferencesTraining pref nput xml X i preferencesX pref gold xml preferencesEvaluaon pref EM Training Opmal values Corpus C 47 Forma recomandată a unui instrument NLP care parcipă într-un lanț de prelucrări txt parameters output input Module X standard standard input output resourses standard resourses 48 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 49 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • instants e1:t1 / e2:t1 / e3:t2=t1+5min / e4:t2 t1 t2 time e1 e2 e3 e4 50 Events happen in me Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 Two types of temporal expressions: • and intervals: 5 minutes t1 t2 time e1 e2 e3 e4 51 Events can be • Instantaneous: Ion a ieşit din cameră t time Maria s-a întâlnit cu proful de mate e • Take me: Ion a cit toată seara Afară plouă t1 t2 time e 52 Signals for temporal relaons Când a intrat în camerăe1, Ion a aprins luminae2 După cinci minute a ieşite3 La ieşire a sns luminae4 când ei, ej è t(ei) = t(ej) ei După ej è t(ej) = t(ei)+ La ej è t(ei) = t(ej) 5 minute t1 t2 timp e1 e2 e3 e4 53 Type of reasoning where me maers 1 Samurai S R L a luat fiinţă la 23 ianuarie 1984 2 [Falimentul firmei] a avut loc la un an după [înfiinţarea ei] un an Când a falimentat Samurai S R L ? 54 Processing statements inţă a luat fiinţă a lua ﬁ subj compl evenimential ISA representation Samurai S R L REC Samurai S R L (id=obj1) la ev1 PP TIME 23 ianuarie 1984 23 ianuarie 1984 55 a avut loc a avut loc subj compl subj compl falimentarea la rezoluţia falimentarea la atrib genit? PP anaforelor atrib genit? PP fianan obj1 rmei de det t un după un după înfiinţarea înfiinţarea atrib genit? atrib genit? ei obj1 simplificări dacă are loc falimentarea lui a falimenta X atunci X falimentează subj compl la obj1 PP an referinţă det aforică la un un după an eveniment deja menţionat ev1 56 Processing statements a falimenta subj compl la obj1 PP an temporal det xpression un după e anchored in another event ev1 evenimential representations 57 Compung me 58 Corpusul ‘QuoVadis’ 59 Un corpus de entăți și relații semance • Tipuri de entăți: – persoane – zei – grupuri de persoane și zei – părți ﬁzice • Relații semance exprimate între aceste puri de entăți 60 Entăți • Personaje (Marcus Vinicius, Ligia), grupuri (creșnii, soldații); • La nivelul textului: grupuri nominale (tânărul patrician, ﬁul consulului); • Entăți incluse: [Te]1 [iubesc; REALISATION=INCLUDED]2, Marcus! • Expresii referențiale imbricate: [ﬁica [lui Aulus]2]1 61 Tipuri de relații • Anaforice • Semance – rudenie – afecve – sociale 62 Relații anaforice • coref • coref-interpret • member-of, has-as-member (inverse) • isa, class-of (inverse) • part-of, has-as-part (inverse) • subgroup-of, has-as-subgroup (inverse) • has-name, name-of (inverse) 1:[Acteea] 2:[tânăra libertă] => coref 1:[mâna 2:[lui] dreaptă] => part-of 63 Relații de rudenie • parent-of • child-of (inverse of parent-of) • grandparent-of and grandchild-of (inverse) • sibling (symmetrical) • ant-uncle-of, nephew-of (inverse relaon) • cousin-of (symmetrical) • spouse-of (symmetrical) • unknown 1:[celui de-al doilea soț 2:[al Popeii]] => spouse-of 1:[sora lui 2:[Petronius]] => sibling-of 64 Relații sociale • superior-of • inferior-of • in cooperaon-with • colleague-of • in compeon-with • opposite-to Eliberând- 1:[o], 2:[Nero]… => superior-of 1:[Tânărul] luptase sub comanda 2:[lui Corbulon] => inferior-of 65 Relații afecve • love • loved-by • hate • hated by • upset • friendship • worship • anger Pe 1:[Vinicus] îl cuprinse o mânie năprasnică împotriva 2:[împăratului] și împotriva 3:[Acteii] => anger , anger 66 căsătorise Marcus cu Vinicius TYPE="parent-of"> era tatăl TYPE="child-of"> acestuia ﬁul TYPE="sibling-of"> surorii TYPE="inferior-of"> a sale e consul mai pe mari vremea tar lui o Tiberiu n , d A TYPE="spouse-of"> care REFERENTIAL> , cu REFERENTIAL> ani în urmă , of" /REFERENTIAL> se Stasci asupra corpusului • 7 281 fraze • 146 822 cuvinte și semne de punctuație • 24 636 mențiuni de entăți • 22 301 relații referențiale • 755 relații AKS (Aﬀecve + Kinship + Social) • 752 triggere 68 Example: relațiile love și worship 69 Relațiile afecve fear-of și hate 70 Relațiile lui Vinicius cu alte personaje 71 Distribuția relațiilor semance în care este implicat personajul Vinicius 72 Linguiscs Linked Open Data (LLOD) - Dezvoltarea de tehnici care vor permite descifrarea conținutului semanc al textelor - rezumate (generale, parțiale, focalizate pe personaje), - linii narave (e g evoluția senmentelor dintre Vinicius și Ligia) - conexiuni stace între entăți (e g arbori genealogici), - stasci asupra entăților (e g senmentele majoritare ale creșnilor comparate cu cele ale romanilor) 73 Linguiscs Linked Open Data (LLOD) - Generarea de ontologii din colecții de tratate - aplicații care “citesc” tratatele unui domeniu și formalizează conceptele și instanțele acestora - Căutare documentară inteligentă - asistenți personalizați ai acvității de cercetare 74 